查看原文
其他

AI绘画掷骰子吗?体验ControlNet猜想模式!

穿行者2049 今说新语 2024-04-15

我的专栏《AI绘画与AIGC实践之路!

已经开通,欢迎加入!


AI绘画最强模型:基于ControlNet实现图像扩散控制!

如何在WebUI中安装ControlNet模型

使用ControlNet技术模型,精准控制生成视频!

ControlNet多重控制功能推出,AI绘画进入导演时代!
使用ControlNet骨骼编辑功能,控制生成人像的精确姿势!

ControlNet六大模型在建筑设计领域的对比及应用详解!

ControlNet一直在持续的更新,后面几次更新也增加了几个模型和功能,其中比较有趣的是猜测模式,也可以称为非提示模式
要使用这个功能需要手动选中“Guess Mode”开关以启用此模式。
在此模式下,ControlNet 编码器将尽力识别输入控制图的内容,如深度图、边缘图、涂鸦等,即使你删除所有提示也是如此。
不需要提示语,也不需要负面提示语,让AI掷骰子吧!
对于此模式,建议使用Step=50和CFG=3-5。
一、建筑效果图
首先使用Scribble模型,第一张是原始图,可以看到,即使CFG设为3,也能生成很好的建筑效果图,而且环境气氛也非常不错。

再用HED模型测试一下,第一张是原始图:

效果也很不错,建筑形体还原很好,但和上一个手绘模型对比,可以注意到HED模型生成的细节比较少,感觉像是低分辨率的图。主要原因是HED生成的边缘图比Scribble细节多,最终扩散时候的限制就多,也就是边缘图细节越多,最终生成的效果图反而越不清晰。

下面以Canny模型再测试一次,Canny模型的边缘检测图细节是最多的,我们看一下无提示语,猜测模式的效果。

可以看到Canny模型的效果已经很差了,除了观察建筑物,还可以观察人物。我们再测试一下深度模型,深度模型并不生成边缘图,而是生成深度图,在此基础上进行扩散的细节应该比Canny要好一些。

二、室内效果图

下面用室内效果图,无提示语使用深度模型测试一下,第一张是原图,后面三张的CFG分别是5、4、3。

你喜欢哪一个呢?感觉各有千秋,深度图表现不错。

三、人像效果

这步用AI生成的原始人像+Canny模型测试,第一张是原图,后面三张的CFG分别是5、4、3。

原图
CFG=5

CFG=4
CFG=3

CFG=3CFG=3

发现CFG=3的情况下,人像的清晰度反而是最好的,也就是AI更加不受边缘检测图的影响,自行发挥的效果更好。

再用我画的兔子测试一下,仍旧使用Canny模型。

这个就不太确定哪个更好了,感觉CFG=5时,AI还在努力顺着边缘图在做扩散,衣服的效果比较好,面部也接近原图,CFG=3时,面部已经放弃原始图,自动朝着真实兔子扩散。

下面用带珍珠耳环的少女测试一遍,全使用CFG=3,最后效果如下,也许当初的女孩就长这样?但黑人女孩是什么意思?AI也搞政治正确?


最后,如果你对这项技术的背后原理感兴趣,可以看一下项目页:

https://github.com/lllyasviel/ControlNet/discussions/188


有一些比较通俗的说明和一些有趣的测试。


《2023 AIGC从入门到精通专栏》

欢迎您的加入!


根据你的喜好,推荐阅读以下AI绘画内容:




喜欢请把这篇文章转发到朋友圈支持一下!


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存